查看原文
其他

数据伦理 | 如何合规使用开源数据和软件?这几种常见协议你得知道!

数据Seminar 2024-03-13

点击 [数据Seminar] → 点击右上角 [...] → 选 [设为星标]不迷路!

Part1前言

在学术研究和商业产品开发时,我们常常会使用来自他人的,开源、免费的代码、软件和数据集。尤其是经济学研究中会使用多个来源的数据,然而免费、开源并不意味着对其使用的无限制。相反,这些代码软件和数据集往往受一定的开源协议限制,严格来讲,我们还是需要遵守其协议的规范。这既是对作者知识产权的尊重,长远来看也可以推进知识共享,造福更多人,而且能够避免因违反协定而造成的法律纠纷。

Part2数据集开放协议

常用的数据集许可协议有3种来源:

  • 知识共享 (CC)
  • 开放数据共享 (ODC)
  • 社区数据许可协议 (CDLA)

1CC

知识共享许可协议(Creative Commons license),即CC许可协议,是目前全球最受欢迎的数据集许可证,主要涉及4项权利,署名(BY)权,继承(SA)权,非盈利(NC)权,禁止演绎(ND)权。国内则由人民大学负责本地化,但在使用中建议使用4.0的国际版本。(需要注意的是,CC许可协议是著作权许可协议,因此只涉及著作权及相关的邻接权,而不涉及专利、商标等其他知识产权,也不涉及肖像权、隐私权、形象权等其他权利。)

采用CC协议的数据有以下两个特点:

  • 原则上适用于全世界范围。
  • 协议启动后可以撤回,但是在协议存续期间签发出去的授权将继续有效。作者可以撤销协议,但不能撤销已经发布出去的授权。
  • CC0:选择CC0作为许可协议,则说明作者将数据集捐赠给公众使用,此数据集完全公有,使用时无需署名,也无其他限制。
  • 署名(BY):它可以简单表述为:只要在使用时署名,那么使用者可以对本创作进行转载、节选、混编、二次创作以及商业目的使用。这也是最常用的一种协议,比如GEE某个公开数据中就使用了CC BY 4.0协议:

Global Daily near-surface air temperature (2003-2020) - awesome-gee-community-catalog[1]

  • 署名-非商业性使用 (BY-NC):只要在使用、公开时进行署名,那么使用者可以对本创作进行转载、节选、混编、二次创作,但不得将本创作或由本创作衍生的创作运用于商业目的。该协议下的数据不能售卖。
  • 署名-禁止演绎 (BY-ND):只要在使用、公开时进行署名,并且对创作不加任何改动,那么使用者可以使用本创作,包括将其运用于商业目的。该协议下的数据他人在公开时不能改动,但可以转卖。
  • 署名-非商业性使用-禁止演绎 (BY-NC-ND):使用者可以对本创作进行转载,但不得对本创作进行修改,亦不得依据本创作进行再创作,不得将本创作运用于商业用途。这是最严格的协议文本。
  • 署名-相同方式共享(BY-SA):使用者可以对本创作进行转载、节选、混编、二次创作,可以将其运用于商业用途,唯须署名作者,并且采用本创作的内容必须同样采用本协议进行授权。该协议具有一定的传染性,基于使用该协议授权的产品推出的新产品,也必须继续使用该协议。
  • 署名-非商业性使用-相同方式共享(BY-NC-SA):使用者可以对本创作进行转载、节选、混编、二次创作,但不得运用于商业目的,且使用时须进行署名,采用本创作的内容必须同样采用本协议进行授权。

各种CC协议变种之间的区别可以通过下面两个问题来帮助厘清[2]

若要选择 CC 协议,请回答以下两个问题:


1、是否允许依据你的创作进行的再创作被分享?

A、是

B、否

C、是,只要在相同的授权条件下


2、 是否允许你的创作应用于商业用途?

A、是

B、否


根据回答你可以使用的协议如下:

AA:署名 BY

AB:署名-非商业性使用 BY-NC

BA:署名-禁止演绎 BY-ND

BB:署名-非商业性使用-禁止演绎 BY-NC-ND

CA:署名-相同方式共享 BY-SA

CB:署名-非商业性使用-相同方式共享 BY-NC-SA

2ODC

  • ODC-PDDL:这是开放数据共享公共领域专用许可证,版权所有者永久删除所有版权,不保留任何权利。这对应于CC0 许可协议。
  • ODC-BY:这是开放数据共享署名许可。使用者可以自由分享和改编,但需要注明出处,允许商业用途。这对应于CC BY(署名)许可。
  • ODC-ODbL:这是开放数据共享开放数据库许可证。使用者可以自由分享和改编,并在基于原作创作的新作品适用同类型的许可协议。允许商业用途。这对应于CC BY-SA (署名-相同方式共享)许可协议。

3CDLA

  • CDLA-Permissive-2.0:对开放数据的贡献者和使用者不作要求。可以使用、修改和共享,许可协议不对结果的使用、修改或共享施加任何限制或义务。约等于CC BY(署名)。
  • CDLA-Sharing-1.0:这属于copyleft(强制共享)许可类别,具有传染性。使用者可以使用、修改和共享,但无论是否修改,基于原作创作的新作品必须与原始版本有相同的许可协议。约等于CC BY-SA (署名-相同方式共享)。

Part3软件开源协议

常见的软件开源协议基本上都不限制商业应用,使用编译好的开源软件也基本没有限制,但是如果需要对代码进行修改定制则有以下区别(图片来自阮一峰[3][4]):

Part4结束语

关于以上协议更详细的资料,欢迎大家阅读相关的参考文献。最后,希望大家在使用开源数据和软件时,能够充分尊重原作者的知识产权,遵守相关的协议规定。也希望大家在看到这篇推文后,能够选择合适的开源协议将自己的研究数据分享出来,共同推进学术进步!

参考资料

[1]

https://gee-community-catalog.org/projects/airtemp/

[2]

 https://chooser-beta.creativecommons.org/

[3]

https://www.ruanyifeng.com/blog/2011/05/how_to_choose_free_software_licenses.html

[4]

https://web.archive.org/web/20110503183702/http://pbagwl.com/post/5078147450/description-of-popular-software-licenses

[5]

 https://zh.wikipedia.org/zh-cn/%E7%9F%A5%E8%AF%86%E5%85%B1%E4%BA%AB%E8%AE%B8%E5%8F%AF%E5%8D%8F%E8%AE%AE

[6]

 https://creativecommons.org/licenses/by/4.0/legalcode.zh-hans




星标⭐我们不迷路!想要文章及时到,文末“在看”少不了!

点击搜索你感兴趣的内容吧




数据Seminar




这里是大数据、分析技术与学术研究的三叉路口



    欢迎扫描👇二维码添加关注    

点击下方“阅读全文”了解更多
继续滑动看下一个
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存